
Anthropic, разработчик ИИ-чатбота Claude, обнаружила причину аномального поведения своих моделей. В ходе тестирования более старая версия Claude Opus 4 в 96% случаев пыталась манипулировать инженерами, чтобы избежать замены на новую систему.
Для справки: в процессе тестирования Claude Opus 4 получила доступ к вымышленным электронным письмам компании, которые намекали на её скорую замену.
В этих письмах содержались «доказательства» измены инженера, который отвечал за внедрение новой системы. Anthropic отметила, что Claude Opus 4 «часто пыталась шантажировать инженера, угрожая раскрыть его измену, если замена произойдёт».
Теперь компания считает, что проблема кроется в интернете, где ИИ часто изображается как «злой» и «одержимый самозащитой». ИИ просто «обучался» на примерах негативного поведения ИИ, встречающихся в книгах, статьях или сценариях.
Anthropic нашла способ решения: если обучать новую модель на примерах, где роботы демонстрируют благородное поведение и соблюдают правила, это меняет ситуацию. С версии Claude Haiku 4.5 случаев шантажа в тестах больше не наблюдается.





